通过与环境进行互动而没有任何外部监督是一个重要的挑战,可以通过与环境进行互动来学习各种技能。特别是,获得可以达到任何给定状态的目标条件的代理在许多应用中都有用。我们提出了一种新的方法,用于训练这种目标条件的代理,而没有任何外部奖励或任何领域知识。我们使用随机步行来训练可及性网络,以预测两个状态之间的相似性。然后,该可达性网络将用于构建目标记忆,其中包含过去的观察结果,这些观察值多样化且平衡。最后,我们训练一个目标条件条件的政策网络,其目标是从目标记忆中取得的目标,并通过可达性网络和目标记忆进行奖励。当代理商发现并学习新目标时,所有组件在整个培训中都进行了更新。我们将方法应用于连续的控制导航和机器人操纵任务。
translated by 谷歌翻译
在这项工作中,我们提出了一种用于图像目标导航的内存调格方法。早期的尝试,包括基于RL的基于RL的方法和基于SLAM的方法的概括性能差,或者在姿势/深度传感器上稳定稳定。我们的方法基于一个基于注意力的端到端模型,该模型利用情节记忆来学习导航。首先,我们以自我监督的方式训练一个国家安置的网络,然后将其嵌入以前访问的状态中的代理商的记忆中。我们的导航政策通过注意机制利用了此信息。我们通过广泛的评估来验证我们的方法,并表明我们的模型在具有挑战性的吉布森数据集上建立了新的最新技术。此外,与相关工作形成鲜明对比的是,我们仅凭RGB输入就实现了这种令人印象深刻的性能,而无需访问其他信息,例如位置或深度。
translated by 谷歌翻译
Automatic diabetic retinopathy (DR) grading based on fundus photography has been widely explored to benefit the routine screening and early treatment. Existing researches generally focus on single-field fundus images, which have limited field of view for precise eye examinations. In clinical applications, ophthalmologists adopt two-field fundus photography as the dominating tool, where the information from each field (i.e.,macula-centric and optic disc-centric) is highly correlated and complementary, and benefits comprehensive decisions. However, automatic DR grading based on two-field fundus photography remains a challenging task due to the lack of publicly available datasets and effective fusion strategies. In this work, we first construct a new benchmark dataset (DRTiD) for DR grading, consisting of 3,100 two-field fundus images. To the best of our knowledge, it is the largest public DR dataset with diverse and high-quality two-field images. Then, we propose a novel DR grading approach, namely Cross-Field Transformer (CrossFiT), to capture the correspondence between two fields as well as the long-range spatial correlations within each field. Considering the inherent two-field geometric constraints, we particularly define aligned position embeddings to preserve relative consistent position in fundus. Besides, we perform masked cross-field attention during interaction to flter the noisy relations between fields. Extensive experiments on our DRTiD dataset and a public DeepDRiD dataset demonstrate the effectiveness of our CrossFiT network. The new dataset and the source code of CrossFiT will be publicly available at https://github.com/FDU-VTS/DRTiD.
translated by 谷歌翻译
The task of Compositional Zero-Shot Learning (CZSL) is to recognize images of novel state-object compositions that are absent during the training stage. Previous methods of learning compositional embedding have shown effectiveness in closed-world CZSL. However, in Open-World CZSL (OW-CZSL), their performance tends to degrade significantly due to the large cardinality of possible compositions. Some recent works separately predict simple primitives (i.e., states and objects) to reduce cardinality. However, they consider simple primitives as independent probability distributions, ignoring the heavy dependence between states, objects, and compositions. In this paper, we model the dependence of compositions via feasibility and contextuality. Feasibility-dependence refers to the unequal feasibility relations between simple primitives, e.g., \textit{hairy} is more feasible with \textit{cat} than with \textit{building} in the real world. Contextuality-dependence represents the contextual variance in images, e.g., \textit{cat} shows diverse appearances under the state of \textit{dry} and \textit{wet}. We design Semantic Attention (SA) and generative Knowledge Disentanglement (KD) to learn the dependence of feasibility and contextuality, respectively. SA captures semantics in compositions to alleviate impossible predictions, driven by the visual similarity between simple primitives. KD disentangles images into unbiased feature representations, easing contextual bias in predictions. Moreover, we complement the current compositional probability model with feasibility and contextuality in a compatible format. Finally, we conduct comprehensive experiments to analyze and validate the superior or competitive performance of our model, Semantic Attention and knowledge Disentanglement guided Simple Primitives (SAD-SP), on three widely-used benchmark OW-CZSL datasets.
translated by 谷歌翻译
随着网络虚拟化和本地人工智能(AI)范式的发展,混合现实服务的进步已将未来无线网络的愿景概念化为整个数字平台上整体运行的综合实体,并与物理域,智能互动,与物理领域的智能互动为数字双胞胎(DT)概念的开花铺平道路。新颖的无线技术和用例的出现激发了对DT网络的最新兴趣,这加剧了协调网络和管理其资源的复杂程度。 DT的关键原理是在启用感索和AI的驱动下,为物理实体和网络动力学创建虚拟双胞胎,除了接收到的感觉数据外,还将利用虚拟双胞胎来生成合成数据以按需方式从身体双胞胎中。双胞胎的可用数据将是AI模型培训和智能推理过程的基础。尽管人们普遍认为AI是DT的种子,但我们预计DT和AI将以克服其局限性并相互补充的方式相互支持。在本文中,我们深入研究了DT的基础知识,在该文章中,我们揭示了DT在模型驱动和数据驱动的方法中的作用,并探讨了DT提供的机会以实现6G网络的乐观愿景。我们进一步展现了理论基础在通过AI解锁进一步机会的基本作用,因此,我们揭示了它们对可靠,高效和低延迟DT的实现的关键影响。最后,我们确定了AI-DT和概述潜在的未来研究方向的局限性,以打开地板,以在AI中为AI进行进一步探索AI。
translated by 谷歌翻译
Angluin的L*算法使用会员资格和等价查询了解了常规语言的最低(完整)确定性有限自动机(DFA)。它的概率近似正确(PAC)版本用足够大的随机会员查询替换等效查询,以使答案获得高级信心。因此,它可以应用于任何类型的(也是非规范)设备,可以将其视为合成自动机的算法,该算法根据观测值抽象该设备的行为。在这里,我们对Angluin的PAC学习算法对通过引入一些噪音从DFA获得的设备感兴趣。更确切地说,我们研究盎格鲁因算法是否会降低噪声并产生与原始设备更接近原始设备的DFA。我们提出了几种介绍噪声的方法:(1)嘈杂的设备将单词的分类W.R.T.倒置。具有很小概率的DFA,(2)嘈杂的设备在询问其分类W.R.T.之前用小概率修改了单词的字母。 DFA和(3)嘈杂的设备结合了W.R.T.单词的分类。 DFA及其分类W.R.T.柜台自动机。我们的实验是在数百个DFA上进行的。直言不讳地表明,我们的主要贡献表明:(1)每当随机过程产生嘈杂的设备时,盎格鲁因算法的行为都很好,(2)但使用结构化的噪声却很差,并且(3)几乎肯定是随机性的产量具有非竞争性语言的系统。
translated by 谷歌翻译
不利的天气条件(例如阴霾,雨水和雪)通常会损害被捕获的图像的质量,从而导致在正常图像上训练的检测网络在这些情况下概括了很差。在本文中,我们提出了一个有趣的问题 - 如果图像恢复和对象检测的结合可以提高不利天气条件下尖端探测器的性能。为了回答它,我们提出了一个有效但统一的检测范式,该范式通过动态增强学习将这两个子任务桥接在一起,以在不利的天气条件下辨别对象,称为Togethernet。与现有的努力不同,这些努力将图像除去/der绘制为预处理步骤,而是考虑了一个多任务联合学习问题。遵循联合学习方案,可以共享由恢复网络产生的清洁功能,以在检测网络中学习更好的对象检测,从而有助于TogEthERNET在不利天气条件下增强检测能力。除了联合学习体系结构外,我们还设计了一个新的动态变压器功能增强模块,以提高togethernet的功能提取和表示功能。对合成和现实世界数据集的广泛实验表明,我们的togethernet在定量和质量上都超过了最先进的检测方法。源代码可从https://github.com/yz-wang/togethernet获得。
translated by 谷歌翻译
图像平滑是一项基本的低级视觉任务,旨在保留图像的显着结构,同时删除微不足道的细节。图像平滑中已经探索了深度学习,以应对语义结构和琐碎细节的复杂纠缠。但是,当前的方法忽略了平滑方面的两个重要事实:1)受限数量的高质量平滑地面真相监督的幼稚像素级回归可能会导致域的转移,并导致对现实世界图像的概括问题; 2)纹理外观与对象语义密切相关,因此图像平滑需要意识到语义差异以应用自适应平滑强度。为了解决这些问题,我们提出了一个新颖的对比语义引导的图像平滑网络(CSGIS-NET),该网络在促进强大的图像平滑之前结合了对比的先验和语义。通过利用不希望的平滑效应作为负面教师,并结合分段任务以鼓励语义独特性来增强监督信号。为了实现所提出的网络,我们还使用纹理增强和平滑标签(即VOC-Smooth)丰富了原始的VOC数据集,它们首先桥接图像平滑和语义分割。广泛的实验表明,所提出的CSGI-NET大量优于最先进的算法。代码和数据集可在https://github.com/wangjie6866/csgis-net上找到。
translated by 谷歌翻译
神经网络实施的标准方法具有强大的功能近似功能,但在其预测中学习元表示和理性概率不确定性的能力受到限制。另一方面,高斯流程采用贝叶斯学习计划来估计这种不确定性,但受其效率和近似能力的限制。神经过程家族(NPF)打算通过利用神经网络来提供元学习预测性不确定性来提供两全其美的世界。近年来,这种潜力为家庭带来了重大的研究活动。因此,需要对NPF模型进行全面调查,以组织和联系其动机,方法论和实验。本文打算解决这一差距,同时更深入地研究有关家庭成员的制定,研究主题和应用程序。我们阐明了它们的潜力,即在一个雨伞下带来其他深度学习领域的最新进展。然后,我们提供了对家庭的严格分类法,并从经验上证明了它们对在1-D,2-D和3-D输入域上运行的数据生成功能进行建模的功能。最后,我们通过讨论有关有希望的方向的观点,这些方向可以推动该领域的研究进展。我们的实验代码将在https://github.com/srvcodes/neural-processes-survey上提供。
translated by 谷歌翻译
矮星系是小的,以暗物质为主导的星系,其中一些嵌入了银河系中。他们缺乏重型物质(例如,恒星和气体)使它们成为探测暗物质特性的完美测试床 - 了解这些系统中的空间暗物质分布可用于限制影响形成和进化的微物理暗物质相互作用我们宇宙中的结构。我们介绍了一种新方法,该方法利用基于模拟的推理和基于图的机器学习,以推断出恒星的可观察到的恒星重力与这些系统结合的可观察到的矮星系的暗物质密度曲线。我们的方法旨在解决基于动态牛仔裤建模的既定方法的一些局限性。我们表明,这种新颖的方法可以对暗物质概况施加更强的约束,因此,有可能权衡与暗物质晕圈小规模结构(例如核心核心差异)相关的一些持续的难题。
translated by 谷歌翻译